51 research outputs found

    Analysis of Intel's Haswell Microarchitecture Using The ECM Model and Microbenchmarks

    Full text link
    This paper presents an in-depth analysis of Intel's Haswell microarchitecture for streaming loop kernels. Among the new features examined is the dual-ring Uncore design, Cluster-on-Die mode, Uncore Frequency Scaling, core improvements as new and improved execution units, as well as improvements throughout the memory hierarchy. The Execution-Cache-Memory diagnostic performance model is used together with a generic set of microbenchmarks to quantify the efficiency of the microarchitecture. The set of microbenchmarks is chosen such that it can serve as a blueprint for other streaming loop kernels.Comment: arXiv admin note: substantial text overlap with arXiv:1509.0311

    Algorithmen, Architekturen und Technologie der optoelektronischen Rechentechnik

    Get PDF
    Der Einsatz optischer Verbindungen in der Rechentechnik verspricht viele der heute bei der Kommunikation zwischen Leiterplatten und zwischen integrierten Schaltkreisen auftretende Engpässe zu lösen. Optische Verbindungen moderaler Parallelität (10-20 Kanäle) zwischen Baugruppen sind, wie die Ergebnisse dieser Arbeit zeigen, mittlerweile technisch machbar. Die effiziente Nutzung optischer Verbindungen im Bereich chip-to-chip zum Aufbau eines 3-dimensionalen optoelektronischen VLSI (3-D O E-VLSI) erfordert dagegen wesentlich stärkere Eingriffe in die Architektur derzeitiger VLSI-Systeme. Aufgabe der Informatik ist einerseits die Entwicklung geeigneter Architekturen und zugehöriger Algorithmen und andererseits der Nachweis der hardwaretechnischen Machbarkeit der entwickelten Architekturkonzepte. In der Arbeit werden eine Reihe von Architekturvorschlägen unterbreitet, die weitgehend bis auf die Hardwareebene spezifiziert sind und teilweise in ersten Demonstrator- und Testschaltkreisen realisiert wurden. Dies betrifft ein superskalares aus Superpipelinestufen aufgebautes optoelektronisches 3-D Rechenwerk für Ganzzahlarithmetik, einen binären neuronalen Assoziativspeicher, figurierbare Hardwarestrukturen, eine 3-D Architektur für alle Prozessoren, systolische Addierer und ein Architekturkonzept für einen digitalen optoelektronischen Bildverarbeitungsprozessor. Durch theoretische Vergleiche wird der Nachweis erbracht, daß für die genannten Architekturen durch den Einsatz eines hochdichten optischen Verbindungssystems Steigerungen der Durchsatzrate von 1-3 Größenordnungen gegenüber rein-elektronischen Systemen möglich sind. Für den Assoziativspeicher, die rekonfigurierbare Hardware und das 3-D Rechenwerk für Ganzzahlarithmetik wurden erste einfache OE-VLSI-Schaltkreise auf der Basis optischer Modulatoren und PN-Detektoren realisiert. Da der Entwurf solcher Systeme neue rechnergestützte Entwurfssysteme erfordert, werden ferner die im Rahmen der Arbeit durchgeführten Entwicklungen für ein Simulations- und Synthesewerkzeug für 3-D OE-VLSI-Systeme dargestellt

    Simulating Memristive Networks in SystemC-AMS

    Get PDF
    This chapter presents a solution for the simulation of large memristive networks with SystemC-AMS. SystemC-AMS allows simulating memristors both on analogue level and on digital level to link analogue memristive devices to digital circuits and system level specifications. We investigate the benefits and drawbacks of a SystemC-AMS simulation compared to a simulation in SPICE. We show for the example of a two-layer memristive network emulating an optical flow algorithm by the detection of moving edges that large memristive networks can be simulated with a free available SystemC-AMS simulation environment, whereas free available SPICE simulation environment fails. However, it is also shown that commercial SPICE simulators are superior against current SystemC-AMS implementations concerning the size of simulated memristive networks. However, SystemC-AMS simulations of memristive networks offer both still more flexibility and similar run times compared to commercial SPICE simulators for small-sized memristive networks. The flexibility and the powerfulness of a SystemC-AMS solution is demonstrated for a complex network that solves edge detection, filtering and detecting of moving objects. The possible run times of the memristive network are determined in the SystemC-AMS simulation environment and are compared with an optical flow algorithm on classical hardware like a CPU and a GPU

    Parallel Embedded Computing Architectures

    Get PDF

    Efficient Implementation of Parallel Path Planning Algorithms on GPUs

    Get PDF
    In robot systems several computationally intensivetasks can be found, with path planning being one of them.Especially in dynamically changing environments, it is difficult tomeet real-time constraints with a serial processing approach. Forthose systems using standard computers, a promising option is toemploy a GPGPU as a coprocessor in order to offload those taskswhich can be efficiently parallelized. We implemented selectedparallel path planning algorithms on NVIDIA's CUDA platformand were able to accelerate all of these algorithms efficientlycompared to a multi-core implementation. We present the resultsand more detailed information about the implementation of thesealgorithms
    • …
    corecore